【腾讯云】视频通信爆款 9.9 元起, 提供电商、教育、社交娱乐等多行业多场景的一站式解决方案,最快 1 天布局火爆赛道
进入2024年春天,井喷式发展了一整年的“大模型”仍在持续升温。 “过去一年大模型技术的迅猛发展,有两个重要的驱动力量:一个是源于所有研究者和从业者对于AGI(通用人工智能)技术理想的追求;另一方面产业界看到了大模型带来产业革命的可能性,以巨大资源投入此赛道。”3月23-24日,2024全球开发者先锋大会(GDC)在上海召开,上海AI实验室领军科学家林达华在大模型前沿论坛上回溯了一年来大模型领域的关键进展,并展望了未来的探索方向,包括上下文、推理能力和更高效的模型架构等。 复旦大学计算机科学技术学院教授邱锡鹏则回溯了从单模态到多模态大模型的演进过程。邱锡鹏认为,新一代大模型的交互将是多模态的,实现任意模态到任意模态的转化,大模型将与更多实际生活场景想结合,产生更多新“玩法”。 商汤科技董事长兼CEO徐立在3月23日的开幕式上表示,生成式AI被视为引领生产力突破的技术,也标志着人工智能进入了一个新的发展阶段,即AI 2.0时代,ChatGPT、Copilot、Blackwell是AI2.0时代的热词。

林达华:基础模型企业不会垄断垂直赛道

在2024全球开发者先锋大会(2024 GDC)大模型前沿论坛上,上海AI实验室领军科学家林达华带来题为《GPT-4周年回望,大模型的再思考》的主题演讲。林达华回顾了自2022年末以来全球大模型发展的重大时刻:从ChatGPT诞生让全世界首次看到大模型的力量,到马斯克xAI发布参数量达314B的当前最大开源模型,技术探索的重点方向聚焦于上下文、推理能力和更高效的模型架构。同时开源模型快速进步,开放生态已成气候。

“过去一年大模型技术的迅猛发展,有两个重要的驱动力量:一个是源于所有研究者和从业者对于AGI(通用人工智能)技术理想的追求;另一方面产业界看到了大模型带来产业革命的可能性,以巨大资源投入此赛道。”林达华表示,技术追求和应用潜力两种力量交织,造就了当前大模型“波澜壮阔”的发展局面。

随着大模型技术的进一步发展,AI产业分工将会被重塑。“大模型研发需要投入巨量资源,但拥有基础模型的企业不会垄断一切,尤其不会吞噬所有垂直赛道。” 林达华认为,行业模型、模型插件等研发投入相对较小,但拥有相对大的应用空间,对专业数据和领域的理解,可以成为竞争壁垒。“更重要的是清楚理解自身资源禀赋和优势,选择合适的产业分工角色,形成差异化竞争路径。”

上海AI实验室领军科学家林达华。

林达华还分享了对大模型未来技术趋势的前瞻:模型架构将从追求参数到追求更高效的规模;训练数据从追求数量到寻求规模化构建高质量数据,训练数据三要素包括规模、质量和多样性,好的数据集是多样化的,低水平重复的语言模式可能带来模型能力的“坍塌”;多模态融合将成为重要趋势;超长上下文解锁新的应用,“记忆”形态还将继续发展;智能体成为大模型应用的重要形态,但需要核心基础能力的支撑;计算环境云端协同将成为重要方向,其中云侧计算建立天花板,端侧计算将支持用户使用大规模放量。

邱锡鹏:新一代大模型与更多实际场景结合

邱锡鹏表示,过去一年见证了以ChatGPT为代表的单模态大模型趋向成熟,双模态大模型开始蓬勃发展,通过结合文本和图像,或文本和语音,可以支持更丰富的交互与创作,“开创了繁荣的AIGC时代”。

“当前,一体化多模态大模型初现端倪,可以支撑更复杂的多模态任务。”邱锡鹏称,下一代多模态大模型应以语言为中心融合多种模态,任意模态组合输入输出,即“Any to Any”,并赋能应用场景和生产力变革。

复旦大学计算机科学技术学院教授邱锡鹏。

当前多模态系统的开发方向是增强LLM的多模态感知能力,然而,该策略仅限于文本生成,不包含多模态输出。虽然以GPT-4为代表的开创性工作取得了多模态理解和生成的重大进展,但仅支持单一的非文本模态,如图像或音频。为此,复旦大学邱锡鹏团队提出了多模态语言模型AnyGPT,可以任意的模态组合来理解和推理各种模态内容,并能熟练地选择合适的多模态组合进行响应。

AnyGPT意味着输入文本、语音、视频等任意形态的指令后,可以生成任意形态的内容。现场,邱锡鹏演示了AnyGPT的玩法,输入语音和文本后可以生成语音和文本;而输入文字和图片可以生成与之对应的音乐。

邱锡鹏认为,新一代大模型的交互将是完全是多模态的,实现任意模态到任意模态的转化,大模型将与更多实际生活场景相结合,产生更多新“玩法”,未来的具身人工智能发展将重点追求多模态综合理解能力提升。

徐立:生成式AI是推动生产力进步的重要技术

“AI 2.0时代,生成式AI被视为推动生产力进步的重要技术,如果能在知识、推理、执行三层能力上实现突破,将真正带来整个社会生产力的跨越式发展。” 商汤科技董事长兼CEO徐立在2024全球开发者先锋大会上表示。

近期“新质生产力”成为热议话题,尤其在开发者领域,生成式AI被视为引领生产力突破的技术,也标志着人工智能进入了一个新的发展阶段,徐立称之为AI 2.0时代。

“ChatGPT、Copilot(微软在Windows 11中加入的AI助手)、Blackwell(英伟达推出的新一代的AI芯片与超级计算平台)是AI2.0时代的热度代名词。搜索数据显示,中国对于这些词的关注热度位居世界榜首,这代表着中国近千万的开发者以及普罗大众对于AI能够带来的变化热切关注。当然,这也是中国AI发展的非常好的基础。”徐立称。

对于AI2.0时代的生产力工具是否能够实现生产效率的规模化提升,徐立认为,当前情况并不尽如人意,“目前解决的问题在10%以下,生产链路上能够带来的突破可能还有限。”其中原因之一是语言问题,以通过自然语言完成编程任务为例,英语与现有程序的匹配度相当高,而优秀的中文语言工具相对欠缺。另一方面原因是高阶、复杂的任务,对于当前新生产力工具来说还有一定的挑战。统计数据显示:工作五年以下的程序员使用新生产力工具解决问题时长超过一小时,但五年以上的程序员反而更短。

徐立将大模型能力分为三层架构,并组成提供生产力工具模型的三层能力。第一层知识(Knowledge),世界知识的全面灌注;第二层推理(Reasoning),理性思维的质变提升。“有了世界知识之后,再往前演进。即使不知道这件事实,也可通过AI逐步把这个事实推理出来,给出更多的可能性。知识和推理是作为生产力工具——大模型最重要的两层,但目前在推理层,成长还相对有限,这也是今后要集中突破的能力之一。”徐立称,第三层执行(Execution),世界内容的互动变革,即如何跟这个世界互动反馈,“某种意义上,如今火热的具身智能,在执行上会有很大的突破。”

采写:南都记者 马宁宁 发自上海

内容分享:
注册免费领取 4核8G 云服务器,享免费数据迁移服务
Top